Modelado generativo de estructuras latentes discretas con policy gradients
GReinSS: aprende distribuciones de estados latentes que maximizan la verosimilitud de datos. Supera a VAE y RSEM en reconstrucción de isoformas de ARN.
GReinSS: aprende distribuciones de estados latentes que maximizan la verosimilitud de datos. Supera a VAE y RSEM en reconstrucción de isoformas de ARN.
GReinSS aplica gradientes de política dinámicos para modelar estructuras latentes discretas. Supera a RSEM en reconstrucción de isoformas de ARN.
Descubre OrderGrad, un método unificado para optimizar objetivos de estadísticos de orden como VaR, CVaR y medias recortadas en aprendizaje por refuerzo. Ideal para tareas de riesgo y robustez.
El nuevo algoritmo RT-PG reutiliza trayectorias off-policy para acelerar la convergencia en métodos de gradientes de política, mejorando la eficiencia muestral.
TrOPD estabiliza la destilación on-policy de LLMs usando regiones de confianza, superando la divergencia profesor-alumno. Mejora razonamiento, código y benchmarks.
TrOPD estabiliza la destilación on-policy en LLMs con regiones de confianza. Supera a OPD, EOPD y REOPOLD en razonamiento y código. ¡Descubre cómo!